人们对出于各种目的的人交谈的综合视频图像产生了浓厚的兴趣,包括娱乐,交流,培训和广告。随着深层伪造的模型的发展,合成视频图像很快将在视觉上与自然捕获视频的肉眼无法区分。此外,许多方法正在继续改进,以避免更谨慎,法医视觉分析。通过使用面部木偶来制作一些深层的虚假视频,该视频通过演员的动作直接控制合成图像的头部和面部,使演员可以将其“木偶”“木偶”“木偶”“木偶”“木偶”相同。在本文中,我们解决了一个问题,即是否可以通过控制扬声器的视觉外观,但从另一个来源转移行为信号来将一个人的动作与原始扬声器区分开。我们通过比较综合图像来进行研究:1)源自另一个人说不同话语的人,2)起源于同一人说的话不同,3)源自另一个人说相同的话语。我们的研究表明,在所有三种情况下,合成视频都比原始源视频不那么真实和吸引力。我们的结果表明,可以从一个人的动作中检测到与视觉外观分开的行为签名,并且可以使用这种行为签名来区分深处的伪造与正确捕获的视频。
translated by 谷歌翻译